检索结果

Select

1. 基于改进的半监督聚类的不平衡分类算法

陆宇, 赵凌云, 白斌雯, 姜震

《计算机应用》唯一官方网站 2022, 42 (12): 3750-3755. DOI: 10.11772/j.issn.1001-9081.2021101837

摘要（309）

HTML （8）

PDF （706KB）（109）

不平衡分类的相关算法是机器学习领域的研究热点之一，其中的过采样通过重复抽取或者人工合成来增加少数类样本，以实现数据集的再平衡。然而当前的过采样方法大部分是基于原有的样本分布进行的，难以揭示更多的数据集分布特征。为了解决以上问题，首先，提出一种改进的半监督聚类算法来挖掘数据的分布特征；其次，基于半监督聚类的结果，在属于少数类的簇中选择置信度高的无标签数据（伪标签样本）加入原始训练集，这样做除了实现数据集的再平衡外，还可以利用半监督聚类获得的分布特征来辅助不平衡分类；最后，融合半监督聚类和分类的结果来预测最终的类别标签，从而进一步提高算法的不平衡分类性能。选择G-mean和曲线下面积（AUC）作为评价指标，将所提算法与TU、CDSMOTE等7个基于过采样或欠采样的不平衡分类算法在10个公开数据集上进行了对比分析。实验结果表明，与TU、CDSMOTE相比，所提算法在AUC指标上分别平均提高了6.7%和3.9%，在G-mean指标上分别平均提高了7.6%和2.1%，且在两个评价指标上相较于所有对比算法都取得了最高的平均结果。可见所提算法能够有效地提高不平衡分类性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 伪标签置信选择的半监督集成学习视频语义检测

尹玉, 詹永照, 姜震

计算机应用 2019, 39 (8): 2204-2209. DOI: 10.11772/j.issn.1001-9081.2019010129

摘要（645）

PDF （1074KB）（302）

在视频语义检测中，有标记样本不足会严重影响检测的性能，而且伪标签样本中的噪声也会导致集成学习基分类器性能提升不足。为此，提出一种伪标签置信选择的半监督集成学习算法。首先，在三个不同的特征空间上训练出三个基分类器，得到基分类器的标签矢量；然后，引入加权融合样本所属某个类别的最大概率与次大概率的误差和样本所属某个类别的最大概率与样本所属其他各类别的平均概率的误差，作为基分类器的标签置信度，并融合标签矢量和标签置信度得到样本的伪标签和集成置信度；接着，选择集成置信度高的样本加入到有标签的样本集，迭代训练基分类器；最后，采用训练好的基分类器集成协作检测视频语义概念。该算法在实验数据集UCF11上的平均准确率到达了83.48%，与Co-KNN-SVM算法相比，平均准确率提高了3.48个百分点。该算法选择的伪标签能体现样本所属类别与其他类别的总体差异性，又能体现所属类别的唯一性，可减少利用伪标签样本的风险，有效提高视频语义概念检测的准确率。

参考文献 | 相关文章 | 多维度评价

Select

3. 结合支持向量机与半监督 K-means的新型学习算法

杜阳, 姜震, 冯路捷

计算机应用 2019, 39 (12): 3462-3466. DOI: 10.11772/j.issn.1001-9081.2019050813

摘要（355）

PDF （704KB）（332）

半监督学习结合少量有标签样本和大量无标签样本，可以有效提高算法的泛化性能。传统的半监督支持向量机（SVM）算法在目标函数中引入无标签样本的依赖项来推动决策面通过低密度区域，但往往会带来高计算复杂度和局部最优解等问题。同时，半监督 K-means算法面临着如何有效利用监督信息进行质心的初始化及更新等问题。针对上述问题，提出了一种结合SVM和半监督 K-means的新型学习算法（SKAS）。首先，提出一种改进的半监督 K-means算法，从距离度量和质心迭代两个方面进行了改进；然后，设计了一种融合算法将半监督 K-means算法与SVM相结合以进一步提升算法性能。在6个UCI数据集上的实验结果表明，所提算法在其中5个数据集上的运行结果都优于当前先进的半监督SVM算法和半监督 K-means算法，且拥有最高的平均准确率。

参考文献 | 相关文章 | 多维度评价